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摘 要 口语 产生 的 最 后 阶段 是 发 声 运 动 ， 该 阶段 涉及 到 言语 运动 系统 中 前 馈 和 反馈 控制 的 
整合 加 工 。 其 中 ,前 馈 控 制 指 个 体 自 上 而 下 地 提取 并 执行 产生 目标 语音 的 运动 指令 ,而 反馈 
控制 指 个 体 根据 发 声 时 产生 的 感觉 反馈 自 下 而 上 地 调整 言语 运动 ， 感 觉 目 标 和 感觉 预期 是 
联系 两 者 的 重要 枢纽 。 基 于 DIVA(directions into velocities of articulators) 神 经 计算 模型 ， 从 语 
言 习 得 和 语言 产生 两 个 阶段 , 痢 述 了 前 馈 和 反馈 控制 整合 的 认 知 神经 机 制 。 在 以 往 研究 的 基 
础 上 , 重点 梳理 了 听觉 反馈 如 何 帮 助 个 体 在 线 控制 言语 运动 和 更 新 前 馈 运动 表征 , 以 及 ERP 
研究 中 PA-N1-P2 成 分 波 相 应 的 认 知 内 涵 。 此 外 ， 总 结 了 影响 讲话 者 前 馈 和 反馈 控制 的 各 种 
因素 ， 包 插 个 体 差异 、 训 练 经 历 和 任务 情境 等 ， 并 提出 这 一 领域 应 该 重点 关注 的 研究 问题 。 


关键 词 言语 运动 系统 ， 前 馈 控 制 ， 反 馈 控制 ， 听 觉 反馈 


言语 是 人 际 沟通 最 重要 的 方式 之 一 ， 也 是 迄今 人 类 掌握 的 最 为 精细 复杂 的 运动 技能 之 
一 。 一 般 认 为 ,言语 产生 可 以 分 为 三 个 过 程 : 一 是 概念 化 (Conceptualization), 确立 说 话 的 意图 
和 想 表达 的 概念 ; 二 是 言语 组 织 (Formulation)， 把 要 表达 的 概念 转换 为 语言 形式 ; 三 是 发 声 
(Articulation)， 涉 及 到 具体 的 语音 和 发 音 的 计划 ( 张 清 芳 , 杨 玉 芳 , 2003)。 其 中 概念 化 和 言语 
组 织 属 于 言语 产生 的 计划 过 程 , 而 发 声 属于 言语 产生 的 执行 过 程 。 当 前 心理 语言 学 研究 主要 
关注 计划 过 程 的 认 知 机 制 (Levelt, Roelofs, & Meyer, 1999)， 忽 视 了 执行 过 程 所 涉及 的 复杂 机 
制 和 理论 闭 述 。 两 项 言语 产生 的 元 分 析 表 明 ， 大 量 研 究 者 将 终端 的 发 音 执 行 等 同 于 简单 的 、 
低层 次 的 运动 输出 (Indefrey, 2011; Indefrey & Levelt, 2004)。 事 实 上 ， 将 发 音 计 划 通 过 一 系列 
音 器 官 的 运动 转化 成 可 被 感知 和 理解 的 声音 序列 是 一 个 非常 复杂 的 过 程 ， 涉 及 对 发 音 运 


动 进行 预期 、 比 较 和 控制 等 高 级 心理 活动 ， 这些 心理 活动 的 实现 需要 运动 皮层 、 感 觉 皮层 以 


及 脑 岛 、 小 脑 等 (Golfinopoulos, Tourville, & Guenther, 2010) 广 泛 的 脑 网 络 的 参与 。 基 于 发 音 


执行 过 程 的 复杂 性 , 研究 者 提出 也 应 该 从 运动 控制 角度 进行 研究 ,以 弥补 传统 研究 者 从 计划 
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过 程 切 入 的 研究 不 足 , 为 全 面 、 系 统 地 理解 言语 产生 的 心理 机 制 提 供 理论 和 实践 指导 (Hickok， 


2012). 


Ni 


早期 研究 者 比较 关注 一 般 性 的 运动 控制 过 程 , 即 个 体 如 何 产生 精确 的 、 以 目标 为 导向 的 


运动 ， 强 调 感觉 反馈 (sensory feedback) 在 运动 控制 中 的 重要 作用 (Wolpert, Diedrichsen, & 


Flanagan, 2011)。 近 年 来 ， 


通过 感觉 反馈 ， 尤其 是 更 为 重要 的 听觉 反馈 (auditory feedback)， 对 语音 输出 的 准确 性 进行 判 


汤 (Guenther, 2006; Guenther & Vladusich, 2012; Scheerer & Jones, 2012)。 随 着 言语 运动 控 什 


研究 者 意识 到 口语 产生 本 质 上 也 属于 精细 化 的 运动 控 人 


= 


， 讲 话 者 


= 


的 探索 不 断 深 入 ， 研 究 者 逐渐 认识 到 前 馈 控 制 (feedforward control) All Kz tit 42 fill (feedback 


control) 的 认 知 内 涵 和 作 月 


机制 。 概 括 来 讲 ， 前 馈 控 制 指 个 体 从 言语 运动 系统 中 自 上 而 下 地 
提取 并 执行 目标 语音 相应 的 运动 指令 ， 而 反馈 控制 指 个 体 自 下 而 上 地 加 工 语言 产生 过 程 


实时 产生 的 感觉 反馈 信息 


， 并 根据 反馈 信息 中 的 言语 错误 调整 和 修正 运动 输出 。 两 个 系统 并 


非 独 立 起 作用 ， 而 是 相互 合作 ， 从 而 保证 了 言语 产生 执行 过 程 的 顺利 进行 (Guenther, Ghosh, 


& Tourville, 2006; Parrell, Lammert, Ciccarelli, & Quatieri, 2019; Perkell, 2012; Tourville & 


Guenther, 2011)。 虽 然 越 来 越 多 的 研究 者 开始 从 运动 控制 的 视角 关注 言语 产生 的 发 生机 制 和 


神经 基础 (Cai, Ghosh, Guenther, & Perkell, 2010, 2011; Chang, Niziolek, Knight, Nagarajan, & 


Houde, 2013; Chen et al., 2015; Hickok, 2012; Scheerer & Jones, 2018)， 但 是 相关 研究 还 比较 零 

WM, 缺乏 对 该 领域 的 理论 背景 、 研 究 热 点 和 潜在 问题 的 系统 性 论述 。 基 于 此 ， 本 文 将 从 前 馈 

和 反馈 控制 整合 加 工 的 基础 理论 、 研 究 现状 以 及 影响 因素 等 方面 对 言语 运动 控制 进行 讨论 。 
aw x 

2 前 馈 和 反馈 控制 整合 的 基础 理论 


言语 运动 控制 不 仅 吸 引 着 心理 语言 学 和 语音 学 等 领域 专家 的 兴趣 ， 不 少 计 算 机 和 人 工 


队 构 建 的 DIVA (directions into velocities of articulators) 神 经 计算 模型 。 该 模型 不 仅 关 注 个 体 


9 能 专家 也 致力 于 从 神经 计算 的 角度 进行 建 模 研究 ， 其 中 最 突出 的 是 Guenther 教授 及 其 对 


在 早期 语言 习 得 阶段 如 何 形 成 前 馈 和 反馈 控制 的 能 力 ， 还 重点 阐述 了 成 熟 的 讲话 者 在 语言 
产生 过 程 中 如 何 整 合 前 馈 和 反馈 控制 系统 以 确保 正常 的 言语 产生 。 
1 语言 习 得 过 程 中 前 馈 和 反馈 控制 的 整合 


DIVA 模型 提出 , KI 


仿 两 个 发 展 阶段 , 期 间 均 涉及 了 运动 和 感觉 信息 的 整合 过 程 。 


8 生 的 婴儿 不 具备 言语 产生 能 力 , 语言 习 得 需要 经 历 嘱 呀 学 语 和 模 


唤 呀 学 语 阶段 。 在 个 体能 够 产生 语音 之 前 ， 必 须 首先 建立 起 一 般 性 声音 ( 即 非特 异性 语 
音 的 声音 ) 的 运动 指令 和 对 应 感觉 反馈 之 间 的 联结 。 在 早期 的 嘱 呀 学 语 阶段 ， 屡 儿 开 始 尝 试 
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尝试 后 运动 和 感觉 信息 形成 配对 。 此 时 ， 如 果 听 觉 或 体 觉 错误 发 生 时 ,个 体 可 以 根据 配对 后 


的 运动 -感觉 联结 将 感觉 错误 信号 转化 为 修正 性 的 运动 指令 (Guenther et al., 2006; Tourville & 


Guenther, 2011)。 

模仿 阶段 。 当 一 般 性 声音 的 运动 -感觉 联结 建立 后 ， 个 体 进 入 语音 模仿 阶段 ， 开 始 学 习 
特异 性 的 语音 产生 。 此 时 反馈 系统 提供 的 其 他 母语 者 产生 的 语音 信息 构成 了 语音 模仿 的 模 
板 , 个 体 逐 渐 形 成 语音 的 听觉 目标 , 即 正 确 产 生 特定 语音 时 期 望 出 现 的 听觉 反馈 (Tourville & 


Guenther, 2011; Kearney & Guenther, 2019)。 由 于 语音 存在 范畴 化 知觉 现象 ， 即 某 个 语音 在 一 
定 的 变异 范围 内 都 被 感知 为 该 语音 ， 研 究 者 通常 使 用 目标 域 来 指 代 语 音 的 听觉 目标 
(Guenther & Vladusich, 2012). Liu 和 Tian (2018) 也 指出 听觉 目标 由 听觉 结果 表征 ， 并 可 以 存 
储 至 听觉 音韵 系统 。 此 外 ,通过 反馈 系统 提供 的 自己 正确 发 音 时 的 体 觉 信息 , 包括 发 音 器 官 
(如 唇 和 下 颌 等 ) 的 移动 位 置 和 不 同 发 音 器 官 的 接触 程度 等 (Parrelletal.,2019)， 个 体形 成 了 体 
觉 目标 , 即 正确 产生 特定 语音 时 期 望 出 现 的 体 觉 反馈 (Tourville & Guenther, 2011)。 由 此 可 见 ， 
反馈 系统 在 语言 习 得 初期 至 关 重 要 ， 它 可 以 帮助 个 体 在 记忆 系统 中 形成 母语 语音 的 感觉 目 
标 表征 。 


在 听觉 目标 习 得 后 ,个体 开始 基于 模仿 的 机 制 学 习 产生 语音 的 前 馈 运 动 指令 (Guentheret 


T 


al., 2006; Perkell, 2012; Tourville & Guenther, 2011)。 起 初 ， 由 于 个 体 仍 未 在 语音 和 相应 运动 
指令 之 间 形 成 稳定 可 靠 的 联结 , 发 音 运动 的 初始 尝试 产生 的 错误 较 大 , 言语 运动 完全 依赖 反 
馈 控 制 系 统 。 然 而， 随 着 每 次 发 声 运动 ， 听 觉 控 制 系 统 对 比 自身 实际 产生 的 语音 和 语音 的 听 
觉 目标 ， 并 依据 听觉 目标 修正 发 音 运 动 中 的 错误 ， 最 终 准 确 习 得 语音 的 前 馈 运 动 指令 。 多 次 
练习 后 ， 运 动 指令 始终 产生 相同 的 感觉 反馈 并 且 未 产生 言语 错误 ， 强 化 了 运动 -感觉 信息 之 
间 的 联结 ， 此 时 言语 运动 主要 依赖 前 馈 控制 。 综 上 ， 在 早期 语言 习 得 阶段 ， 前 馈 和 反馈 控 仙 
整合 的 核心 是 形成 母语 语音 的 感觉 目标 和 产生 语音 的 前 馈 运 动 指令 以 及 建立 运动 指令 和 感 
觉 反 馈 之 间 稳 定 的 联结 ， 逐 渐 发 展 出 类 似 于 成 人 言语 运动 控制 技能 。 
2.2 语言 产生 过 程 中 前 馈 和 反馈 控制 的 整合 

语言 产生 过 程 中 , 成 熟 讲 话 者 的 言语 运动 控制 更 为 复杂 , 涉及 前 馈 系 统 和 反馈 系统 以 及 
两 者 联系 的 枢纽 DIVA 模型 认为 存储 在 记忆 系统 中 的 感觉 目标 为 前 馈 控制 和 反馈 控制 的 协 


同 合作 提供 了 接口 ， 而 其 他 的 一 些 模型 ， 例 如 任务 动态 (TD: task dynamics) (Saltzman & 


‘Ul 
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Munhall, 1989)、 状 态 反馈 控制 (SFC: state feedback control) (Houde & Chang, 2015) 等 明确 指 


出 , 通过 内 部 前 向 模型 (internal forward model) 在 线 估算 的 感觉 预期 是 联系 前 馈 和 反馈 控制 的 
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运动 控制 中 存在 内 部 前 向 机 秆 
于 运动 指令 的 感觉 预期 共同 促 


Hickok, 2012; Hickok etal., 2011; 


(Guenther, 1995). 


模型 在 理论 


进 了 个 体 发 展 和 保持 精确 言语 产 


Houde & Nagarajan, 2011)。 基 于 这 


们 将 重点 阐述 前 饥 和 反馈 控制 整合 加 工 的 作用 机 制 。 


开放 环 路 的 前 馈 控制 。 成熟 
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云 动 控制 (Perkell, 2012)。 这 一 
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音 输出 的 开放 环 路 。 在 言语 运动 系统 
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框架 中 未 引入 内 部 前 向 模型 ， 


但 它 并 未 
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因此 ， 研 究 者 提出 感觉 
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音 ( 见 图 1 中 
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因为 个 体 可 以 迅速 地 发 放 运动 指令 ， 而且 不 需要 处 到 
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前 馈 和 反馈 控制 联系 的 枢纽 。 前 


容易 发 生 
合 不 稳定 的 环境 


反馈 控制 系统 


Eht, 


保 了 流利 地 言语 产生 (Parrell etal., 2019)。 但 是 ， 在 母语 或 二 语 习 得 
性 仍 有 待 提高 ， 开 坏 控 和 
I 不 适用 于 语言 获得 
当 个 体 所 处 的 环境 不 稳定 时 ， 
普 误 的 能 力 ， 因 此 不 适 


图 1 语言 产生 过 程 中 的 前 馈 和 反馈 控制 系统 


的 早期 ， 语 


必然 会 导致 言语 错 
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云 动 指令 ， 


反馈 


感觉 目标 和 基 
生 的 能 力 (Guenther, 1995; 
文 三 个 因素 之 间 的 关系 ， 我 


制 系统 。 当 个 体 计划 产生 语音 
发 放 至 发 音 
为 灰 
生 的 
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息 的 系统 
中 ， 
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的 早期 阶段 (Guenther, 2006; Guenther & Vladusich, 2012)。 此 


一 些 干 扰 的 情况 ， 前 馈 控 制 不 具备 监测 和 修了 
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pal 


系统 的 输入 信息 是 发 声 运 动产 生 的 感觉 反馈 , 两 种 性 质 的 信息 无 法 直接 比较 ,因此 言语 运动 
控制 模型 需要 明确 前 馈 控 制 如 何 与 反馈 控制 进行 联系 。 研 究 者 认为 前 馈 控 制 系统 同时 存在 
感觉 目标 (记忆 提取 ) 和 基于 运动 指令 的 感觉 预期 (motor-based sensory prediction) (在 线 估算 ) 


两 种 方式 生成 参与 反馈 控制 的 感觉 表征 (Liu & Tian, 2018; Tian & Poeppel, 2012). 

首先 ，DIVA 模型 提出 ， 每 个 语音 激活 运动 指令 的 同时 也 会 激活 记忆 系统 中 相应 的 感觉 
目标 ， 而 感觉 目标 编码 正确 产生 语音 时 期 望 的 感觉 反馈 ,因此 可 以 与 实际 的 感觉 反馈 进行 对 
比 。 在 语言 产生 过 程 中 , 个 体 通 过 不 断 对 比 感觉 目标 和 感觉 反馈 ,判断 发 音 动 作 的 目标 实现 
与 否 (Guenther, 2016)。 实 证 研究 和 计算 模型 的 证 据 也 表明 ,感觉 目标 和 实际 感觉 反馈 之 间 的 


差异 可 以 用 于 更 新 目标 语音 的 运动 指令 (Guenther, 1994; Hickok, Houde, & Rong, 2011; 
Lametti, Krol, Shiller, & Ostry, 2014)。 需 要 明确 的 是 ， 虽 然 在 图 1 的 前 馈 控 制 系统 中 未 包括 
感觉 目标 ， 但 实际 上 从 语音 集 到 感觉 目标 自 上 而 下 的 通路 也 属于 前 馈 控 制 。 

此 外 ， 高 效 的 前 馈 控 制 可 以 通过 内 部 前 向 模型 提前 预期 感觉 反馈 (Franklin & Wolpert, 


2011)， 这 种 前 瞻 性 使 得 前 馈 控 制 也 被 称 为 预期 性 控制 (predictive control) (Parrell et al., 2019)。 


从 认 知 层面 来 讲 , 感觉 预期 指 个 体 在 产生 实际 感觉 反馈 之 前 , 通过 心理 内 部 估算 当前 声 道 


动 状态 以 及 随后 可 能 的 感觉 反馈 (Hickok, 2012; Tian & Poeppel, 2010, 2012)， 这 种 预期 完全 依 


赖 于 语言 习 得 阶段 建立 的 语音 运动 指令 和 感觉 输出 之 间 的 双向 联结 (Hickok, 2012; Tian & 


Poeppel, 2010, 2012, 2015; Tian, Zarate, Poeppel, 2016)。 内 部 前 向 模型 的 神经 基础 是 传 出 副本 
(efferent copy)， 即 在 大 脑 内 部 复制 的 前 馈 控制 系统 向 发 音 器 官 发 放 的 运动 指令 , 不 同 之 处 在 
于 传 出 副本 并 不 作用 于 发 音 器 官 , 而 是 进一步 传输 至 听觉 皮层 和 体 觉 皮层 , 分 别 形 成 基于 运 


动 指令 的 听觉 和 体 觉 预期 ( 见 图 1 红色 框 ) (Hickok, 2012; Hickok et al., 2011; Niziolek, 


Nagarajan, & Houde, 2013)。 虽 然 图 1 的 前 馈 控制 系统 中 未 包括 感觉 预期 但 实际 上 从 前 馈 

令 到 感觉 预期 自 上 而 下 的 通路 也 属于 前 馈 控 制 。 预期 性 控制 存在 明显 的 速度 优势 ， 因为 个 
体 可 以 直接 通过 运动 指令 预期 感觉 反馈 , 即时 衡量 感觉 目标 的 实现 与 否 (Parrell et al., 2019)。 
但 是 , 复杂 的 内 部 前 向 模型 很 难 习 得 ， 当 模型 本 身 并 不 精确 时 ,意味 着 预期 的 感觉 反馈 可 能 
与 实际 的 感觉 反馈 不 匹配 ,此 时 如 果 没 有 反馈 控制 系统 的 参与 , 个体 无 法 修正 预期 中 的 错误 。 

闭合 环 路 的 反馈 控制 。 言语 运动 系统 另外 一 个 重要 机 制 是 反馈 控制 , 其 与 前 馈 控制 的 本 
质 区 别 在 于 它 利 用 发 声 运 动产 生 的 感觉 有 反馈 进行 言语 运动 控制 (Parrell et al., 2019)。 这 一 过 
程 类 似 于 系统 控制 论 中 的 闭环 控制 (closed-loop controD)， 指 一 种 将 受 控 对 象 的 结果 输出 反馈 
至 施 控 对 象 , 并 对 施 控 对 象 产生 影响 的 系统 控制 方式 , 因此 反馈 控制 本 质 上 是 一 个 从 运动 指 
令 到 错误 信号 ， 再 从 错误 信号 到 运动 指令 的 闭合 环 路 。 反 馈 控制 涉及 一 系列 加 工 过 程 ( 见 图 


1 中 背景 为 蓝 色 的 部 分 ): 首先 ， 感觉 皮层 编码 由 发 声 运 动产 生 的 感觉 反馈 ;随后 , 个 体 将 实 
际 的 感觉 反馈 与 通过 内 部 前 向 模型 在 线 估算 的 感觉 预期 进行 比较 ， 在 大 多 数 情 况 下 两 者 匹 
配 , 语言 产生 过 程 顺 利 结束 ， 由 于 不 需要 修正 当前 的 语音 输出 ， 此 时 感觉 预期 会 抑制 感觉 目 
标的 激活 。 但 是 在 少数 特殊 情况 下 ,感觉 反馈 和 感觉 预期 不 匹配 ， 由 于 需要 修正 语音 输出 中 
的 错误 ， 此 时 感觉 目标 会 充分 激活 编码 感觉 错误 ; 最 后 ,错误 信号 传输 至 反馈 控制 集 ， 该 模 
块 基 于 感觉 -运动 之 间 的 转换 编码 修正 性 的 运动 指令 ， 当 感觉 错误 多 次 发 生 时 ， 基 于 反馈 错 


误 的 修正 性 指令 会 更 新 当前 语音 的 前 馈 运 动 表征 (Guenther, 2016; Perkell, 2012)。 由 此 可 见 ， 


反馈 控制 的 优势 是 适用 于 不 稳定 的 环境 ， 通 过 不 断 监测 和 修正 言语 输出 确保 了 正常 有 效 的 


Guenther, 2006; Perkell, 2012). 

总 之 , 前 馈 和 反馈 控制 系统 都 具有 各 自 的 优势 和 不 足 , 灵活 的 言语 运动 控制 需要 结合 两 
种 控制 系统 , 这 样 既 保留 了 前 馈 控 制 中 的 速度 , 也 可 以 应 对 语言 产生 中 的 错误 或 外 部 意外 的 
扰动 (Guenther, 2016; Parrell et al., 2019)。 基 于 上 述 加 工 过程 可 知 ，DIVA 模型 中 包括 了 很 多 
的 模块 以 及 相应 的 参数 , 是 一 个 庞大 的 流程 模型 。Guenther 教授 也 意识 到 当前 的 理论 模型 中 
包括 很 多 自由 参数 ,理应 较 好 地 拟 合 具体 的 实验 数据 , 但 是 实证 研究 很 难 去 验证 模型 中 的 假 
设 。 因 此 ，Guenther 教授 的 团队 正 致力 于 构建 简化 的 、 可 验证 的 三 参数 计算 模型 ， 模 型 仅 包 


括 听觉 反馈 控制 增益 (ci: gains in auditory feedback control)、 体 觉 反馈 控制 增益 (as: gains in 


somatosensory feedback control) 和 前 馈 控制 /学 习 速 率 (Xpp: feedforward control/learning rate) = 
个 参数 , 则 在 评估 语言 产生 过 程 中 前 馈 和 反馈 控制 系统 的 相对 贡献 (Kearney et al., submitted). 
2.3 言语 运动 控制 的 神经 基础 

参与 语言 产生 的 脑 网 络 包 括 了 双 侧 内 外 侧 额 叶 皮 层 、 顶 叶 皮层 、 颗 上 上 皮层、 丘脑、 基底 
神经 节 和 小 脑 (Bohland & Guenther, 2006)， 但 仍然 不 清楚 的 是 每 个 脑 区 在 语言 产生 过 程 中 具 
体 的 作用 以 及 交互 的 方式 。DIVA 模型 基于 大 量 fMRI 研究 ， 指 出 了 参与 前 馈 和 反馈 控制 各 
个 认 知 过 程 的 脑 区 ， 为 更 全 面 了 解 言语 运动 控制 提供 了 神经 层面 的 结果 。 

DIVA 模型 推测 负责 加 工 语音 集 的 脑 区 位 于 左 半球 腹 侧 前 运动 皮层 ,主要 包括 腹 侧 中 央 
前 回 、 以 及 邻近 的 额 下 回 后 部 和 前 脑 区 。 前 运动 皮层 参与 读 取 常用 语音 精细 编码 后 的 发 音 运 


动 程序 ， 这 些 运动 程序 构成 了 言语 运动 控制 中 的 前 馈 指 令 (Guenther, 2006, 2016; Guenther & 


Vladusich, 2012)。 该 假设 的 证 据 来 自 于 大 量 言语 运动 障碍 的 脑 损伤 研究 Kearney & Guenther, 


lin 


2019), 例如 , 研究 者 发 现 言 语 失 用 (apraxia of speech) 病 人 在 脑 损 伤 发 生前 具备 正常 的 语言 产 
生 能 力 ， 但 是 脑 损伤 ( 通 第 是 腹 侧 前 运动 皮层 区 域 ) 发 生 后 ， 他 们 在 运动 计划 和 编码 方面 存在 


缺陷 (Ballard, Tourville, & Robin, 2014; New et al., 2015). 

DIVA 模型 强调 了 小 脑 的 多 种 功能 。 第 一 ， 小 脑 对 于 学 习 和 更 新 精细 的 前 馈 运 动 指令 至 
关 重 要 ， 其 损伤 很 有 可 能 会 导致 运动 障碍 (Ito, 2000); 第 二 ， 小 脑 的 作用 在 于 形成 感觉 目标 
(O’Reilly, Mesulam, & Nobre, 2008); 第 三 ， 小 脑 可 能 参与 了 反馈 控制 ， 因 为 小 脑 的 活动 与 感 
觉 错误 的 大 小 以 及 频率 有 关 ， 而 感觉 错误 的 表征 进一步 驱动 修正 性 的 运动 指令 (Grafton， 
Schmitt, Van Horn, & Diedrichsen, 2008)。 基 于 以 上 争议 ，Parrell 等 (2017) 对 比 小 脑 功能 退化 
的 病人 和 正常 被 试 在 前 馈 控 制 和 反馈 控制 任务 上 的 表现 差异 ， 发 现 小 脑 功能 退化 的 病人 保 
持 精 确 前 馈 指 令 的 能 力 下 降 , 而 反馈 控制 能 力 则 与 正常 被 试 相 似 , 支持 小 脑 更 关键 的 作用 是 
更 新 和 保持 前 馈 运 动 指令 。 

神经 影像 研究 发 现 ， 当 实验 者 人 为 地 改变 返回 到 被 试 耳 中 的 听觉 反馈 , 会 观察 到 颗 叶 区 


=e 


域 显著 激活 ， 表 明 这 一 脑 区 与 听觉 错误 的 加 工 有 关 (Fu et al., 2006; Tourville, Reilly, & 


Guenther, 2008; Toyomura et al., 2007)。 例 如 ，Tourville 等 (2008) 的 研究 要 求 被 试 产 生 单 音 


词 (如 “beck” 和 “bet”)， 命 名 过 程 中 随机 改变 被 试 声学 信号 的 第 一 共振 峰 ( 提 高 30% 或 降低 
30%)。 实 验 者 对 比 改变 听觉 反馈 条 件 下 和 正常 听觉 反馈 条 件 下 大 脑 的 激活 情况 ， 结 果 发 现 
听觉 错误 显著 激活 颗 上 回 后 部 和 里 横 回 ， 其 中 激活 峰值 位 于 左 侧 杜 横 回 后 部 末端 。 大 量 研究 
也 证 实 显 横 回 负 责 监测 听觉 错误 和 编码 听觉 反馈 和 听觉 预期 不 匹配 的 程度 (Parkinson， 


Flagmeier, Manes, Larson, Rogers, & Robin, 2012; Zheng, Munhall, & Johnsrude, 2010)。 Hickok 


(2012) 在 理论 模型 中 提出 颗 平 面 负责 听觉 和 运动 信息 的 整合 ， 因 此 该 区 域 又 被 称 为 听觉 - 运 


动 接口 (Hickok et al., 2011; Hickok, Okada, & Serences, 2009). 

反馈 控制 主要 激活 右 半球 的 有 
首次 在 DIVA 模型 中 引入 了 偏 右 侧 化 的 反馈 控制 集 ， 负 责 在 言语 错误 发 生 时 生成 修正 性 的 
运动 指令 。 早 期 的 DIVA 模型 预测 运动 皮层 的 活动 位 于 双 侧 ， 并 主要 集中 于 初级 运动 皮层 
(Guenther et al., 2006)。 然 而 ，Tourville 等 (2008) 发 现 人 为 改变 共振 峰 时 ， 听 觉 反 馈 异 常会 激 
活 右 侧 前 运动 皮层 ，Golfinopoulos 等 (2011) 发 现 人 为 改变 嘴唇 或 下 颌 移动 位 置 时 ， 体 觉 反 馈 

异常 同样 会 激活 右 侧 前 运动 皮层 。 

综 上 , DIVA 模型 从 发 展 的 角度 阔 述 了 个 体 在 语言 习 得 和 语言 产生 阶段 中 前 馈 和 反馈 控 
制 整合 的 加 工 机 制 。 在 语言 习 得 阶段 , 个 体 建 立 语音 的 感觉 目标 表征 和 运动 表征 以 及 两 者 的 
联结 。 对 于 成 熟 的 讲话 者 ,前 馈 控 制 既 可 以 直接 提取 目标 语音 的 运动 指令 , 也 可 以 从 记忆 系 


Er 


X (Kalpouzos & Nyberg, 2010), Tourville 和 Guenther (2011) 


=, 


统 中 提取 语音 的 感觉 目标 或 通过 内 部 前 向 模型 形成 运动 指令 相应 的 感觉 预期 ， 而 反馈 控 币 
实时 监测 语言 产生 错误 ,并 及 时 修正 和 更 新 前 馈 运动 表征 。 从 神经 基础 来 看 ,言语 运动 系统 
涉及 大 脑 双 侧 广泛 的 脑 区 , 未 来 研究 应 致力 于 揭示 更 为 精细 的 脑 网 络 , 以 及 不 同 脑 区 之 间 的 


联结 模式 。 
3 言语 运动 控制 的 研究 现状 
早期 研究 者 通常 在 行为 层面 探讨 听觉 反馈 如 何 参 与 言语 运动 控制 。 近年 来 , 随 着 电 生理 


(如 事件 相关 电位 ERP, 一 种 在 头皮 记录 的 特殊 脑 诱发 电位 ) 和 脑 成 像 技术 (如 脑 磁 图 MEG 和 
功能 核磁 共振 fMRD 的 发 展 ， 不 少 研究 者 结合 行为 与 ERP. MEG 和 fMRI 等 技术 探讨 前 馈 
和 反馈 控制 的 整合 机 制 ， 并 取得 了 丰硕 的 成 果 。 

3.1 听觉 反馈 的 功能 : 行为 研究 

当前 研究 者 开始 关注 听觉 反馈 在 语言 习 得 和 语言 产生 中 的 作用 ， 提 出 听觉 反馈 具有 三 
大 主要 功能 : 形成 和 保持 语言 运动 技能 、 在 线 控制 语言 产生 以 及 更 新 前 馈 运 动 表征 (Cai, 2012; 
Guenther et al., 2006; Civier et al., 2010). 

WT bt BOE i ERN BEE EE IE Ra SLA. HARRI RES IL 
童 无 法 获得 流利 的 语言 产生 能 力 (Cowie et al., 1982)， 患 有 轻 度 至 重度 听力 损伤 的 学 语 前 儿 
童 通 常 无 法 产生 可 理解 的 语言 (Oller & Eilers, 1988)， 但 是 当 借助 人 工 耳蜗 时 ， 听 力 能 力 的 恢 
复 极 大 地 促进 了 他 们 语言 产生 能 力 的 习 得 (Tye-Murray & Spencer, 1995)。 以 上 证 据 表 明 ， 具 
备 正常 的 听力 能 力 是 习 得 语言 运动 技能 的 必 备 条 件 。 即 使 是 语言 习 得 后 , 听觉 反馈 对 于 个 体 


ce 


= 保持 语言 运动 技能 仍然 具有 重要 作用 。 研 究 发 现 学 语 后 听力 丧失 会 导致 个 体言 语 运动 的 很 
O 多 方面 退化 ， 包 括 语 速 、 音 强 以 及 基 频 等 (Lane & Webster, 1991)， 但 是 人 工 耳 蜗 植 入 会 促进 


语言 可 理解 性 的 恢复 (Gould et al., 2001). 


上 述 研究 大 多 采用 纵向 研究 方法 ,主要 关注 语言 运动 技能 发 生 的 缓慢 变化 , 因而 无 法 考 
察 听 觉 反 馈 在 实时 言语 运动 控制 中 的 作用 。 此 外 , 母语 者 产生 语音 的 运动 指令 已 经 高 度 自动 
化 ,通常 听 觉 预 期 和 听觉 反馈 匹配 ， 因 而 很 难 考察 基于 听觉 反馈 错误 的 运动 控制 (Simmonds， 


Wise, & Leech, 2011)。 早 期 研究 者 采用 延 时 听觉 反馈 (delayed auditory feedback) 范 式 ， 实 验 中 
利用 特殊 的 设备 和 软件 使 讲话 者 的 声音 传 到 耳 休 的 时 间 有 所 延迟 ， 此 时 人 们 通常 会 表现 出 
类 似 口吃 者 的 言语 不 流利 现象 。 该 范式 利用 延 时 方式 干扰 运动 信息 与 听觉 反馈 的 整合 , 证 明 


语言 产生 会 受到 听觉 反馈 的 影响 (Mitsuya, Munhall, & Purcell, 2017; Tian & Poeppel, 2015). 


但 是 有 研究 者 质疑 延 时 明显 地 改变 了 听觉 反馈 的 自然 模式 ,被 试 能 够 意识 到 改变 , 因此 提倡 


更 为 精细 的 实验 操纵 (Cai, 2012)。 近 年 来 ， 现 代 声 学 信号 处 理 技术 
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所 了 言语 运 
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究 手 段 ， 众 生出 听觉 反馈 扰动 (auditory feedback perturbation) yè zt(Cai, Beal, Ghosh, Tiede, 


Guenther, & Perkell, 2012; Cai et al. ,2010)。 由 于 听觉 反馈 表现 为 外 显 的 声学 信号， 


和 操纵 , 研究 者 开始 以 精细 控 人 


捉 的 方式 实时 改变 听觉 反馈 中 的 多 利 


容易 获得 
声学 参数 ,其 中 最 常用 的 


包括 音 强 (Bauer, Mittal, Larson, & Hain, 2006; Patel, Reilly, Archibald, Cai, & Guenther, 2015), 


基 频 (Chang et al., 2013; Franken et al., 2018a, 2018b) 和 共振 峰 (Cai et al., 2012; Daliri, Wieland, 


Cai, Guenther, & Chang, 2017)。 扰 动 范式 最 主要 的 优势 是 建立 了 听觉 反馈 感知 和 言语 运动 调 


整 之 间 的 因果 关系 。 研 究 者 主要 关注 的 问题 包括 : 


昕 觉 反馈 扰动 发 生 时 ,被 试 如 何 i 
闷 限 ( 即 仍 可 能 认为 声音 


自己 发 出 )， 讲 评 


co 
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方 
条 


yta 


反应 表明 言语 运动 控制 的 目的 是 使 听觉 反馈 维持 在 稳定 状态 。 
第 二 ， 被 试 基于 听觉 反馈 错误 的 运动 调整 发 生 的 时 间 进 


的 整合 过 程 是 自动 化 加 工 或 是 控制 全 


E M (compensatory response)。 例 如 ， 当 反馈 到 耳 


6 者 会 自动 降低 基 频 (Chang etal., 2013)。 这 种 相反 方向 的 补偿 和 


程 如 何 ? 以 及 前 馈 和 反馈 控 玮 
E 加 工 ? 研究 发 现 当 听觉 反馈 扰动 发 生 后 ， 被 试 


周 整 言语 运动 ? 目前 大 量 研究 发 现 ， 当 听觉 反 
者 通常 会 向 人 为 扰动 的 相反 


TF 


=, 


周 整 言 


语 运 动 的 过 程 十 分 迅速 ,通常 在 扰动 发 生 后 的 100~200 ms 内 (Bauer et al., 2006; Franken et al., 


2018a; Cai et al., 2012)。Scheerer 和 Jones (2018) 发 现 反馈 控制 系统 即使 对 语言 产生 


偏差 也 敏感 ， 实 验 后 的 调查 也 表明 被 试 


! 微 小 的 


时 意识 不 到 扰动 和 补偿 性 反应 的 存在 (Cai et al., 


2011; Parrell et al., 2017)。Munhall 等 (2009) 在 实验 中 扰动 共振 峰 并 告知 被 试 扰动 的 具体 操纵 ， 


要 求 被 试 不 要 进行 补偿 性 反应 。 结果 发 现 即 使 告知 被 试 后 , 他 
整 运动 ， 表 明 补 偿 性 反应 不 易 受 有 意识 的 集 略 影响 。 以 上 证 据 ( 即 


影响 ) 都 支持 前 馈 和 反馈 控 


正 以 及 不 受 策 


2012a)。 


Ake 一 一 


> 
研究 者 发 现 补偿 怕 


听觉 反馈 扰动 只 


听觉 反馈 扰动 的 幅 


Za 


2013b), 其 


由 于 言语 运动 控 人 


发 生 时 间 快 、 


度 与 言语 运动 调整 的 幅度 之 间 的 关系 及 其 认 知 机 4 
反应 的 幅度 通常 只 占 听 觉 反 馈 扰 动 幅 度 的 小 部 分 ， 例 如 100 音 分 的 音 高 


了 研究 报告 只 有 8 音 分 左右 的 补偿 性 反应 (Scheerer et al.,2013a)。 —7ih 


门 仍 然 会 向 扰动 的 相反 方向 调 


无 意识 的 修 


判 的 整合 过 程 是 自动 化 的 加 工 (Korzyukov et al., 


ill ett A ? 


能 诱发 小 于 50 音 分 的 补偿 性 反应 (Korzyukov et al., 2012a; Scheerer et al., 


这 是 


1， 


出 同 时 依赖 前 馈 控制 和 反馈 控制 系统 (Tourville & Guenther, 2011)。 男 一 方 


j， 由 于 听觉 反馈 扰动 范式 只 是 造成 了 预期 的 听觉 反馈 和 实际 的 听觉 反馈 的 不 匹配 ， 而 预期 


FI AS DE RA SK Bos FS AS Jc oe DL RT SE ARTE BI A E ts BS TY NY T A EL A roo Be tis I 
和 吻合 的 体 觉 反馈 信息 。 这 种 扰动 和 补偿 的 不 对 称 现 象 说 明 , 听觉 反馈 不 是 言语 运动 系统 中 


一 的 信息 输入 (Lametti et al., 2012)， 前 馈 控 制 和 体 觉 反馈 也 参与 言语 运动 控制 。 


= 


听觉 反馈 的 第 三 个 作用 是 更 新 前 馈 运 动 表征 ，Delvaux 和 Soquet (2007) 发 现成 人 语言 产 
语言 环境 的 影响 ,人们 会 根据 语言 环境 调整 语音 模式 (例如 音 高 、 元 音 特征 )。 


四 
这 说 明 前 馈 指令 建立 后 不 是 固定 不 变 的 , 而 是 会 受到 听觉 反馈 的 影响 不 断 校准 更 新 。 研究 者 


发 展 出 言语 适应 (speech adaptation) 范 式 , 考察 长 时 程 的 听觉 反馈 扰动 如 何 影响 前 馈 运 动 表征 


的 更 新 (Cai et al., 2010; Daliri et al., 2017; Parrell et al., 2017)。 目 前 该 范式 被 广泛 应 用 于 基 频 


和 共振 峰 控制 的 研究 ， 典 型 的 言语 适应 范式 包括 四 个 连续 的 阶段 (Daliri et al., 2017)。1) 基 线 
期 (baseline phase): 人 们 在 正常 听觉 反馈 条 件 下 发 声 ，2) 渐 变 期 (ramp phase): 在 听觉 反馈 扰 
动 条 件 下 发 声 ， 听 觉 反 馈 扰 动 的 幅度 逐渐 变化 直至 到 达 峰 值 ，3) 保 持 期 (hold phase): 持续 在 
最 大 幅 值 的 听觉 反馈 扰动 条 件 下 发 声 ， 通 过 多 个 试 次 重 塑 语 音 的 运动 表征 ; 4) 结束 期 (end 
© phase): 最 后 在 正常 听觉 反馈 条 件 下 发 声 。 研 究 发 现 保持 期 与 基线 期 相 比 ， 讲 话 者 会 向 扰动 
的 相反 方向 做 出 补偿 性 反应 ， 也 称 适应 性 反应 (adaptiveresponse)， 当 结束 期 扰动 撤销 后 适应 


性 反应 仍然 会 保持 短暂 时 间 ， 也 称 遗 留 效应 (aftereffecb (Daliri et al., 2017; Parrell et al., 2017). 


基线 期 和 结束 期 被 试 都 接受 正常 的 听觉 反馈 ， 结 束 期 的 遗留 效应 说 明 被 试 已 经 更 新 特定 语 
音 的 前 馈 运 动 表征 。 这 表明 人 为 造成 的 听觉 错误 会 引发 反馈 控制 系统 修正 运动 , 从 长 时 程 来 
看 ， 修 正 性 指令 被 纳入 前 馈 控 制 系统 指导 随后 的 发 音 行为 。 

研究 者 也 关注 言语 适应 能 否 泛 化 到 其 他 未 扰动 的 语音 上 。Cai 等 (2010) 考 察 汉语 母语 者 
在 面 对 共 振 峰 扰动 时 如 何 产生 三 元 音 /iau/， 以 及 适应 性 反应 能 否 泛 化 到 其 他 时 间或 空间 特征 
与 /iau/ 不 一 样 的 元 音 上 ， 如 /uai/, /ia/ 和 /au/ 等 。 结 果 发 现 泛 化 模式 广泛 存在 ， 但 是 比较 微弱 ， 
且 随 着 两 个 语音 相似 程度 的 降低 而 递减 。Reilly 和 Pettibone (2017) 也 发 现 重复 扰动 特定 元 音 
的 听觉 反馈 不 仅 会 改变 被 扰动 元 音 的 产生 (适应 性 反应 )， 也 会 改变 附近 未 被 扰动 元 音 的 产生 


( 泛 化 )。 以 上 证 据 表明 不 同 元 音 的 前 馈 运 动 指令 不 是 独立 表征 的 ， 人 否则 茶 个 元 音 基于 听觉 反 


四 


馈 错误 的 前 馈 表征 更 新 不 会 影响 其 他 元 音 的 产生 。 因 此 , 研究 者 推测 时 间 和 空间 特征 相似 的 


元 音 可 能 共享 菜 些 机 制 以 负责 计算 语音 的 运动 轨迹 ， 这 样 一 个 元 音 运 动 -感觉 映射 的 调整 会 


享 
导致 其 他 元 音 运动 编码 的 改变 。 这 对 DIVA 模型 提出 了 挑战 ， DIVA 模型 将 不 同 语音 视 为 独 


立 的 个 体 ， 单 独 存储 前 馈 运 动 指 令 (Guenther et al., 2006; Tourville & Guenther, 2011)， 因 此 不 


能 解释 不 同 元 音 中 发 现 的 泛 化 反应 。 进 一 步 的 研究 需要 解释 不 同 语音 间 的 泛 化 ， 以 完善 


DIVA 模型 。 

3.2 前 馈 和 反馈 控制 整合 加 工 的 时 间 进 程 ， ERP 和 MEG 研究 

虽然 大 量 研究 从 行为 层面 揭示 言语 运动 控制 的 发 生机 制 ， 但 是 行为 研究 只 能 依托 外 显 
的 运动 调整 ,无 法 考察 听觉 反馈 错误 监测 的 过 程 。 随 着 认 知 神经 科学 的 兴起 , 不 少 研究 者 采 
用 听觉 反馈 扰动 范式 ， 并 结合 ERP. MEG 等 高 时 间 分 辩 率 技术 探讨 前 馈 和 反馈 控制 整合 加 


工 的 时 间 进 程 (Behroozmand et al., 2016; Chen et al., 2012a, 2012b; Franken et al., 2018b; Heinks- 
Maldonado, Mathalon, Gray, & Ford, 2005; Scheerer et al., 2013a, 2013b; Scheerer & Jones, 2014, 
2018)。 研 究 者 关注 听觉 反馈 扰动 幅度 与 神经 活动 变化 的 关系 ， 发 现 了 反映 言语 运动 控制 的 
N1-P1-P2 成 分 波 (Chen et al., 2012b; Liu et al., 2011; Scheerer et al., 2013a). 

首先 ， 研 究 者 普遍 认为 P1 成 分 (MEG 实验 中 对 应 M50 成 分 ) 反 映 了 被 试 对 早期 听觉 刺 
> 激 变 化 的 监测 。 例 如 ，Scheerer 等 (2013a) 在 记录 ERP 的 同时 随机 扰动 听觉 反馈 ， 结 果 发 现 
© Pl 指标 只 对 是 否 扰动 敏感 ， 但 是 对 扰动 的 幅度 不 敏感 。Korzyukov 等 (2012a) 也 发 现 P1 的 诱 
z 发 是 以 全 或 无 的 方式 ， 反 映 了 对 一 般 性 听觉 刺激 的 监测 。 

K 相 比 于 P1 成 分 , 早期 研究 者 更 加 关注 语言 特异 性 的 N1 成 分 波 (MEG 实验 中 对 应 Ml 或 
M100 成 分 ) 以 及 言语 运动 诱发 的 抑制 现象 (SIS: Speech-induced suppression). SIS 具体 表现 为 : 
= 比较 被 试 发 声 时 听 自 己 正 常 的 听觉 反馈 与 自己 受到 扰动 的 听觉 反馈 (Heinks-Maldonado et al., 
R 2005, 2006), 或 比较 被 试 发 声 时 听 自己 正常 的 听觉 反馈 与 听 别 人 的 声音 (Heinks-Maldonado et 
al., 2005, 2006)， 或 比较 被 试 发 声 时 听 自 己 正常 的 听觉 反馈 与 未 发 声 时 被 动 地 听 自 己 声音 的 
录音 (Houde, Nagarajan, Sekihara, & Merzenich, 2002), N1/M1 波幅 均 会 降低 。SIS 现象 也 得 
到 fMRI 证 据 的 支持 , 研究 发 现 被 试 发 声 时 听 自 己 正常 的 听觉 反馈 与 听 自 己 受到 扰动 的 听觉 
反馈 相 比 ， 听 觉 皮层 的 活动 降低 (Parkinson et al., 2012; Zheng et al., 2010)。 因 此 ，SIS 本 质 上 


有 反映 了 通过 内 部 前 向 模型 预期 感觉 反馈 的 机 制 (Behroozmand et al., 2016; Heinks-Maldonado 


et al., 2005; Kort, Nagarajan, & Houde, 2014)， 当 预期 的 听觉 反馈 与 实际 的 听觉 反馈 匹配 时 ， 
诱发 出 SIS 现象 ， 当 两 者 不 匹配 时 ， 听 觉 皮层 需要 额外 的 资源 加 工 言语 错误 。SIS 也 被 认为 
是 讲话 者 区 分 自己 和 外 部 产生 言语 的 重要 机 制 。 

研究 者 认为 N1 波幅 的 变化 反映 了 个 体 对 听觉 反馈 扰动 的 监测 以 及 对 内 部 和 外 部 产生 


言语 的 区 分 (Behroozmand & Larson, 2011; Heinks-Maldonado et al., 2005; Liu et al., 2011; 


Scheerer et al., 2013a). E Scheerer 等 (2013a) 的 研究 中 ， 任 何 听觉 反馈 扰动 条 件 都 比 未 扰动 
条 件 诱发 更 大 的 N1 波幅 ,并且 波幅 变化 受到 扰动 幅度 的 影响 ， 具 体 表 现在 大 的 扰动 (400 音 
分 ) 比 相对 较 小 的 扰动 (50-250 音 分 ) 诱 发 更 大 的 N1 波幅 。 这 与 Liu 等 人 (2011a) 的 研究 结果 吻 


A 500 音 分 和 200 音 分 扰动 比 100 音 分 扰动 诱发 更 大 的 N1 波幅 ( 同 见 Behroozmand & 
Larson, 2011)。 因 此 ， 研 究 者 推测 N1 成 分 实际 反映 了 讲话 者 对 比 听 觉 反 馈 和 听觉 预期 的 过 
程 。 当 实际 的 听觉 反馈 违反 了 预期 ， 但 仍 可 以 被 认为 是 由 自己 产生 的 言语 时 ，N1 波幅 的 增 
加 是 以 全 或 无 的 方式 ; 但 当 大 的 听觉 反馈 扰动 发 生 时 , 讲话 者 认为 超出 了 生理 学 上 自身 可 产 
生 声 音 的 范围 ， 因 而 判断 听觉 反馈 来 自 他 人 ， 并 诱发 更 大 的 N1 波幅 。N1 的 潜伏 期 可 能 
映 了 听觉 反馈 加 工 的 效率 ， 有 研究 表明 随 着 扰动 幅度 的 提高 ，N1 潜伏 期 缩短 ， 说 明 被 试 更 
快速 地 监测 到 大 的 听觉 反馈 错误 (Liu et al., 2011; Scheerer et al., 2013a)。 

此 外 , 研究 者 开始 越 来 越 关注 基于 反馈 错误 的 运动 控制 在 神经 层面 上 的 表现 , 并 发 现 了 
P2 成 分 波 (MEG 实验 中 对 应 M2 或 M200 成 分 )。 与 N1 相 比 ，P2 波幅 根据 扰动 幅度 的 大 小 
表现 出 最 系统 的 变化 。Scheerer 等 (2013a) 发 现在 0 到 250 音 分 扰动 区 间 内 ，P2 波幅 随 扰动 
幅度 的 增加 而 增加 ， 但 P2 波幅 并 非 一 直线 性 上 升 ， 当 扰动 幅度 大 于 250 音 分 时 ， 波 幅 开始 
下 降 。 值 得 注意 的 是 ， 行 为 层面 上 的 补偿 性 反应 也 表现 出 与 P2 波幅 变化 相似 的 模式 。 当 听 
觉 反 馈 扰 动 较 小 时 , 补偿 性 反应 随 扰动 幅度 的 增加 而 增加 ; 但 是 当 大 的 听觉 反馈 扰动 发 生 时 ， 
讲话 者 判断 听觉 反馈 来 自 他 人 而 非 自 己 ， 因 而 不 会 做 出 补偿 性 反应 或 补偿 性 反应 的 幅度 较 
小 (Scheerer et al., 2013a; Tian & Poeppel, 2015)。 此 外 ， 行 为 - 脑 电 的 相关 分 析 和 回归 分 析 都 
表明 行为 上 的 补偿 性 反应 和 P2 波幅 存在 正 相 关 ， 因 此 研究 者 认为 P2 可 能 反映 了 听觉 错误 


的 计算 以 及 相应 的 运动 指令 修正 (Chen et al., 2015; Jones, Scheerer, & Tumber, 2013; Kort et al., 


2014; Scheerer et al., 2013a; Scheerer & Jones, 2014). 
少数 研究 者 开始 尝试 利用 时 频 分 析 探讨 大 脑 如 何 整合 运动 和 听觉 反馈 信息 进行 言语 运 


二 动 控 制 ， 发 现 6 频段 和 8 频段 的 震荡 活动 具有 重要 意义 (Behroozmand et al., 2015; Cavanagh 


& Frank, 2014; Cruikshank, Singhal, Hueppelsheuser, & Caplan, 2012)。 例 如 ，Cavanagh 和 Frank 
(2014) AHL 8 频段 (1 到 4Hz) 和 6 频段 (5 到 8 Hz) 的 活动 反映 了 对 扰动 听觉 反馈 中 新 异 、 冲 突 
以 及 错误 信息 的 加 工 ， 因 此 在 神经 层面 标记 了 对 认 知 控制 的 需求 。Behroozmand 等 (2015) 进 
一 步 对 比 音乐 家 和 非 音乐 家 在 音 高 听觉 反馈 扰动 实验 中 神经 活动 的 差异 。 研究 发 现 , 被 试 对 
听觉 反馈 扰动 做 出 补偿 性 反应 的 同时 , 伴随 相位 一 致 性 9 频段 额 中 区 域 的 震荡 活动 , 且 音 乐 
RO 频段 的 震荡 强度 高 于 非 音乐 家 。 在 扰动 呈现 1 秒 后 , 额 叶 区 域 出 现 非 相 位 一 致 性 6 频段 
的 震荡 活动 ， 且 音乐 家 6 频段 的 震荡 强度 低 于 非 音乐 家 。 此 外 ，8 频段 的 震荡 活动 与 扰动 结 
束 后 被 试 重新 调整 音 高 以 回归 基线 水 平 的 能 力 有 关 。 研 究 者 据 此 推测 9 频段 在 神经 生理 层 
而 标记 音乐 家 提高 的 音 高 加 工 能 力 ， 反 映 了 人 类 整合 听觉 反馈 信息 以 控制 言语 产生 的 机 制 


(Behroozmand et al., 2015; Cruikshank et al., 2012)。 而 6 频段 标记 言语 适应 机 制 ， 即 个 体 如 何 


依据 听觉 反馈 错误 更 新 前 馈 运 动 指令 并 指导 后 续 言 语 产生 (Behroozmand etal., 2015)。 时 频 研 
究 从 不 同 角度 补充 了 前 馈 和 反馈 控制 整合 加 工 的 神经 机 制 ， 未 来 研究 应 继续 探讨 神经 震荡 
活动 的 认 知 涵义 。 

综 上 , Pl, N1 和 P2 波形 的 变化 表明 ， 当 听觉 反馈 扰动 发 生 时 , 个 体 可 以 在 早期 监测 到 
听觉 信息 的 异常 ,调用 更 多 的 认 知 资源 加 工 听 觉 错误 , 并 基于 反馈 信息 进行 言语 运动 的 调整 ， 
6 频段 和 6 频段 可 能 参与 了 运动 -感觉 信息 的 整合 过 程 。 
4 影响 前 馈 和 反馈 控制 整合 加 工 的 因素 

言语 运动 系统 的 正常 运转 依赖 于 前 馈 和 反馈 控制 的 协同 合作 (Guenther et al., 2006; 
Perkell, 2012; Tourville & Guenther, 2011; Hickok, 2012)， 因 此 两 者 在 言语 运动 控制 中 的 相对 
贡献 及 其 影响 因素 是 非常 重要 的 研究 问题 。 研 究 者 通过 观察 个 体 受 听觉 反馈 扰动 干扰 的 程 
度 来 考察 前 馈 和 反馈 控制 的 相对 权重 , 实验 逻辑 是 如 果 被 试 对 前 馈 控 制 的 依赖 程度 越 低 ， 则 
会 对 感觉 反馈 的 依赖 程度 越 高 , 相应 地 更 容易 受到 听觉 反馈 扰动 的 干扰 。 大 量 研究 以 补偿 性 
反应 或 P1-N1-P2 成 分 波 为 切入 点 ， 发 现 影响 因素 主要 表现 在 三 方面 : 第 一 ， 个 体 差异 ， 包 
括 年 龄 、 性 别 、 发 声 变 异性 和 言语 障碍 等 ;第 二 ， 训 练 经 历 ， 包 括 语言 经 历 和 音乐 经 历 等 ; 
第 三 ， 任 务 情境 ， 包 括 可 预期 性 和 注意 负荷 等 。 


前 馈 和 反馈 控制 的 表现 存在 个 体 差异 , 研究 者 关注 产生 个 体 差异 的 本 质 原因 , 尤其 是 语 
言 产生 障碍 群体 的 运动 控制 缺陷 。 

年 龄 和 性 别 。 语音 表征 和 运动 表征 的 整合 开始 于 婴儿 的 嘱 呀 学 语 , 并 在 随后 的 语言 习 得 
过 程 中 一 直 保 持 可 塑性 以 适应 发 首 器 官 的 生长 、 肌 肉 组 织 的 增加 以 及 肺活量 的 变化 
(Guenther et al., 2006)。 有 研究 关注 儿童 和 成 人 听觉 反馈 控制 的 差异 ， 例 如 Liu 等 (2010a) 发 
现 7 到 12 岁 讲 英语 的 儿童 做 出 补偿 性 反应 的 潜伏 期 长 于 成 人 。Scheerer, Liu 和 Jones (2013b) 
的 横断 研究 考察 了 4 到 30 岁 年 龄 跨度 的 被 试 ， 结 果 发 现 补偿 性 反应 和 P1-N1-P2 波幅 均 受 
到 年 龄 的 影响 。 对 正在 习 得 语言 的 儿童 来 说 , 听觉 反馈 可 以 帮助 他 们 建立 前 馈 表征 ， 相应 的 
权重 会 被 提高 ,但 当 发 展 停止 时 ,前 馈 表征 保持 相对 稳定 ,听觉 反馈 提供 的 信息 则 变 得 元 余 ， 
因此 提高 前 馈 控 制 的 权重 可 以 增加 言语 流畅 度 和 减少 外 界 的 干扰 (Civier etal.,2010)。 有 证 据 
表明 ,听觉 反馈 扰动 实验 中 女性 比 男性 产生 更 小 的 补偿 性 反应 , H. N1 和 了 2 潜伏 期 更 短 (Chen 


et al., 2010; Swink & Stuart, 2012)。Li 等 (2018) 发 现 青年 男性 比 青年 女性 诱发 更 大 的 N1 和 P2 
波幅 。 研 究 者 认为 可 能 是 两 性 间 的 生理 差异 导致 了 前 馈 和 反馈 控制 的 差异 (Chen, Liu, Jones, 


Huang, & Liu, 2010; Kakimoto et al., 2016) 

发 声 变 异性 。 在 音 高 扰动 任务 中 ,实验 者 通常 要 求 被 试 进行 持续 元 音 发 声 任务 ,发 声 变 
异性 指 个 体 在 基线 条 件 下 , 即 未 扰动 听觉 反馈 时 音 高 变化 的 标准 差 。 部 分 研究 者 关注 发 声 变 
异性 的 个 体 差 异 如 何 影响 听觉 反馈 控制 (Scheerer & Jones, 2012; Scheerer et al., 2013a)。 
Scheerer 和 Jones (2012) 发 现 发 声 变 异性 更 大 的 被 试 对 听觉 反馈 扰动 产生 更 大 的 补偿 性 反应 ， 
揭示 言语 输出 的 不 稳定 会 导致 个 体 增加 对 听觉 反馈 输入 信息 的 依赖 性 ， 以 维持 稳定 的 言语 


器 
a 
it 


言语 障碍 。 基 于 已 有 神经 影像 研究 ，DIVA 模型 在 大 脑 中 标记 出 不 同 言语 障碍 的 脑 损伤 
区 域 (Guenther, 2016)。 言语 障碍 的 严重 性 取决 于 脑 损 伤 区 域 是 影响 了 前 馈 控制 系统 或 是 反馈 
控制 系统 ,在 语言 习 得 的 发 展 过 程 中 , 反馈 控制 系统 对 于 形成 前 馈 指令 是 不 可 或 缺 的 。 但 是 ， 
当 语 言 习 得 后 ， 前 馈 控制 系统 可 以 在 几乎 不 需要 反馈 控制 系统 参与 的 情况 下 发 放 运 动 指 令 
并 产生 语音 。 因 此 ,对 于 成 熟 的 讲话 者 而 言 ,， 负责 反馈 控制 系统 的 脑 区 受 损 对 语音 输出 的 影 


啊 相 对 有 限 。 但 是 ， 负 责 前 馈 控 制 系统 的 脑 区 受 损 将 引起 明显 的 言语 运动 障 但 (Kearney & 


a Guenther, 2019)， 常 见 的 语言 产生 障碍 如 言语 失 用 、 口 吃 (stuttering)、 构 音 障 碍 (Dysarthria) 等 
: 得 到 研究 者 的 广泛 关注 。 

言语 失 用 是 一 种 运动 计划 编码 障碍 ， 其 典型 特征 是 语 速 慢 、 语 音 扭曲 、 韵 律 异 常 等 。 言 
语 失 用 患者 的 脑 损 伤 主 要 位 于 左 半球 额 下 区 域 , 尤其 是 腹 侧 前 运动 皮层 , 该 区 域 负责 提取 精 


细 编 码 的 前 馈 运 动 指令 (Guenther, 2006, 2016)。 因 此 ， 言 语 失 用 主要 是 由 于 前 馈 运 动 控制 系 


统 的 缺陷 (Kearney & Guenther, 2019; Tourville & Guenther, 2011)。 研 究 者 提出 额 下 区 域 的 损 


伤 可 能 也 会 影响 个 体 提取 语音 的 感觉 目标 ， 而 反馈 控制 的 运作 机 制 是 对 比 感觉 目标 和 实际 


的 感觉 反馈 ， 因 此 该 脑 区 损伤 可 能 会 进而 导致 反馈 控制 受 损 (Ballard et al., 2018; Kearney & 


Guenther, 2019)。 但 是 ， 反 馈 控制 缺陷 仍 未 得 到 实证 研究 充分 的 验证 。Maas 等 (2015) 利 用 噪 
音 掩 蔽 (noise masking) 范 式 考察 了 言语 失 用 的 本 质 ， 结 果 表 明 病 人 前 馈 控制 受到 破坏 ， 导 致 


控制 扮演 更 突出 的 角色 ( 同 见 Iuzzini-Seigel, Hogan, Guarino, & Green, 2015)， 该 结论 也 得 
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到 计算 机 模拟 证 据 的 支持 (Terband, Rodd, & Maas, 2015). 


口吃 是 一 种 语言 流畅 性 障碍 ， 其 典型 特征 是 语音 重复 、 语 音 延 长 和 沉默 。DIVA 模型 指 
， 口 吃 者 比 正 常 被 试 更 高 地 激活 参与 反馈 控制 集 的 主要 脑 区 ( 右 半球 的 中 央 前 回 和 额 下 回 
区 域 )， 而 反馈 控制 集 负责 计算 基于 反馈 错误 的 修正 性 运动 指令 ， 因 此 口吃 主要 是 由 反馈 控 
制 的 缺陷 或 异常 (Tourville & Guenther, 2011) 引 起 的 。 在 行为 层面 ，Cai 等 (2012) 通 过 随机 扰 


动听 觉 反 馈 也 证 实 口吃 者 听觉 -运动 转换 的 功能 存在 缺陷 (Daliri et al., 2017)。 另 外 一 种 观点 


EE 


认为 , 口吃 者 从 前 馈 控制 系统 中 直接 提取 运动 指令 的 


能 力 受 损 , 导致 他 们 过 多 地 依赖 听觉 反 


馈 进行 运动 控制 , 影响 了 语言 产生 的 流畅 性 (Civier et al., 2010). 在 电 生 理 层面 , Daliri 和 Max 


(2015a, 2015b) 证 实 了 口吃 者 预期 听觉 反馈 的 一 般 性 能 力 存在 缺陷 ， 因 此 其 前 馈 控 制 系 统 可 


4.2 训练 经 历 


语言 经 历 。 研究 发 现 声 调 语 言 的 经 历 会 减少 个 体 受 音 高 扰动 影响 的 程度 , 这 是 由 于 声调 


语言 可 使 用 音 高 变化 来 区 别 意 义 , 而 非 声 调 语 言 通常 只 用 音 高 变化 改变 语气 ， 


因此 不 同 语言 


的 使 用 者 会 发 展 出 语言 特异 性 的 音 高 控制 能 力 (Chen et al., 2012b; Liu et al., 2010b; Ning, Shih, 


型 非 声调 语言 ， 而 汉语 是 : 


& Loucks, 2014; Ning, Loucks, & Shih, 2015)。 英 语 是 


:型 的 声调 


语言 ，Ning 等 (2014) 首 次 对 比 有 无 声调 语言 经 历 对 音 


高 控制 的 影响 ,并 将 研究 问题 扩展 到 第 


二 语言 学 习 领 域 (汉语 二 语 学 习 者 )。 结 果 发 现 , 汉语 母语 者 产生 幅度 最 小 的 补偿 性 反应 ， 而 
二 语 学 习 者 的 表现 模式 介 于 汉语 母语 者 和 英语 母语 者 之 间 ， 揭 示 语 言 训练 经 历 对 音 高 前 馈 


和 反馈 控制 的 塑造 。Liu 等 (2010b) 对 比 粤 语 和 汉语 母语 者 听觉 反馈 控制 的 差异 ， 虽 然 两 种 语 


言 都 属于 声调 语言 ， 但 粤语 的 声调 系统 (6 声 ) 比 汉语 


(4 声 ) 更 为 复杂 精细 ， 结 果 发 现 粤 语 母 


语 者 比 汉语 母语 者 产生 更 小 的 补偿 性 反应 。 以 上 研究 都 证 实 精 细 的 声调 系统 使 讲话 者 拥有 


3 


稳定 的 音 高 前 馈 控制 能 力 ， 因 而 不 易 受 听觉 反馈 扰动 的 干扰 。 


音乐 经 历 。 研究 者 发 现 音乐 训练 影响 了 音 高 的 前 馈 和 反馈 控制 能 力 。 当 主 试 在 持续 元 音 
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发 声 任务 中 随机 扰动 听觉 反馈 的 音 高 ， 有 经 验 的 音乐 家 比 非 音 乐 家 产生 更 小 的 补偿 性 反应 ， 


说 明 音 乐 训练 提高 了 音 高 控制 的 稳定 性 ， 减 少 了 来 自 


外 部 反馈 的 干扰 (Jones & Keough, 2008; 


Keough, Hawco, & Jones, 2013). Ning 等 (2015) 在 听觉 反馈 扰动 任务 中 对 比 汉语 母语 者 、 汉 语 


二 语 学 习 者 、 经 过 训练 的 歌手 和 未 接触 过 声调 语言 的 讲话 者 四 组 被 试 的 表现 , 发 现 汉语 母语 


者 在 元 音 发 音 和 汉语 声调 任务 中 均 表 现 出 最 稳定 的 音 高 控 种 


1， 经 过 训练 的 歌手 也 比 未 接触 


过 声调 语言 的 被 试 在 元 音 发 声 任务 中 表现 出 更 稳定 的 音 高 控制 ， 但 在 语言 特异 性 任务 中 未 


发 现 差 异 。 以 上 结果 说 明 控 制 声调 / 音 高 的 经 历 有 助 于 形成 更 稳定 的 前 馈 运 动 表 和 


乐 训 练 提高 的 音 高 前 馈 控 制 能 否 泛 化 到 语言 任务 中 还 有 待 验证 。 


4.3 任务 情境 


E， 但 由 音 


可 预期 性 。 特定 事 件 稳 定 出 现 的 频率 越 高 ,预期 事件 出 现 的 能 力 就 越 强 。 在 言语 运动 控 


制 中 ,前 馈 控 制 可 以 通过 内 部 前 向 模型 预期 听觉 反馈 


扰动 听觉 反馈 ,被 试 可 能 会 提高 前 馈 控制 的 权重 ,进而 减少 来 自 


， 因 此 研究 者 猜测 如 果 以 可 预期 的 方式 


反馈 的 干扰 。 该 假设 得 到 大 


量 证 据 的 支持 (Chen et al., 2012a; Korzyukov et al., 2012b; Scheerer & Jones, 2014)。 Korzyukov 


等 (2012b) 发 现 扰动 方向 的 可 预期 性 诱发 更 小 的 N1 波幅 ; Scheerer 和 Jones (2014) 发 现 扰动 
幅度 的 可 预期 性 导致 补偿 性 反应 的 幅度 变 小 , N1 波幅 减 小 , 补偿 性 反应 和 NI 潜伏 期 加 快 。 
这 些 发 现 证 实 可 预期 性 提高 了 前 馈 控制 系统 的 权重 。 

注意 负荷 。 日 常生 活 中 , 讲话 者 接收 听觉 反馈 的 同时 可 能 还 需要 加 工 其 他 模 态 的 信息 ， 
但 注意 资源 是 有 限 的 , 因此 有 研究 者 提出 注意 负荷 可 能 影响 听觉 反馈 加 工 。Tumber, Scheerer 
和 Jones (2014) 分 别 在 单 任务 和 双 任 务 情境 下 随机 扰动 听觉 反馈 ， 单 任务 情境 要 求 被 试 被 动 
地 观看 视觉 线索 发 声 , 双 任务 情境 要 求 被 试 在 发 声 的 同时 辨别 字母 串 以 增加 注意 负担 。 结 果 
发 现 ， 单 任务 比 双 任务 情境 产生 更 大 的 补偿 性 反应 ， 说 明 当 被 试 的 注意 被 分 散 时 ， 更 少 的 注 
意 用 于 加 工 听觉 错误 。Liu 等 (2015) 进 一 步 验证 了 该 观点 ， 他 们 发 现 当 被 试 选择 性 注意 听觉 
反馈 时 , 会 产生 更 大 的 补偿 性 反应 。 然 而，Alsius, Mitsuya 和 Munhall (2013) 的 研究 未 发 现 补 
偿 性 反应 在 注意 集中 和 注意 分 散 任务 上 的 差异 。 对 于 矛盾 的 结果 , 未 来 需要 更 多 的 研究 来 探 
索 注意 调控 听觉 反馈 控制 的 机 制 。 


理解 前 馈 和 反馈 控制 系统 如 何在 大 脑 中 协同 合作 以 保证 正常 的 言语 产生 具有 重要 的 理 
论 意义 和 实践 价值 。 近 十 年 ， 研 究 者 致力 于 构建 细致 的 言语 运动 控制 基础 理论 和 神经 网 络 ， 
尤其 关注 个 体 如 何 利 用 听觉 反馈 在 线 调整 言语 运动 以 及 更 新 前 馈 运 动 表征 。 讲 话 者 直接 读 
取 运 动 指令 的 前 馈 控 制 能 力 ， 以 及 利用 感觉 反馈 修正 运动 指令 的 反馈 控制 能 力 受 到 多 种 因 
素 的 影响 。 未 来 可 以 在 以 下 几 个 方向 进一步 探索 : 
第 一 ， 在 线 言 语 运 动 控制 的 研究 多 数 集中 于 相对 稳 态 的 单元 音 ， 如 /a/ 或 /0/ (Chen etal., 
2012b; Scheerer etal., 2013a)。 典 型 的 音 高 听觉 反馈 扰动 实验 通常 要 求 被 试 延长 发 音 ， FRI 
元 音 的 静态 特征 。 然 而 ,日常 交 流 中 的 发 音 运动 会 导致 声 道 形 变 ， 例 如 辅音 和 元 音 的 过 渡 ， 
因此 语音 的 重要 特征 之 一 是 会 随时 间 不 断 动 态 变化 。 相 比较 而 言 , 延长 的 静态 发 音 几 乎 不 会 
出 现在 自然 连续 语 流 中 ,因此 生态 效 度 较 低 。 未 来 研究 不 应 只 关注 简单 的 元 音 , 也 要 关注 自 
然 语 言 ， 致 力 于 更 全 面 地 理解 言语 运动 控制 的 特性 。 

第 二 , 从 理论 模型 来 看 , 虽然 DIVA 是 言语 运动 控制 领域 现 有 最 全 面 合理 的 模型 之 一 ， 
但 也 仍然 存在 一 些 缺 点 首先 ,主要 关注 独立 小 单元 的 发 音 运动 ,如 音节 或 经 常 使 用 的 短语 ， 
忽略 了 言语 运动 系统 是 如 何 控制 多 音节 单位 中 发 音 运动 的 过 渡 ; 再 者 ，DIVA 模型 也 无 法 解 
释 听 觉 反 馈 扰 动 实验 中 发 现 的 泛 化 效应 ， 即 扰动 特定 语音 的 听觉 反馈 为 何 会 导致 相 邻 语音 
的 言语 运动 调整 ， 此 外 ,心理 语言 学 模型 认为 语言 产生 还 包括 概念 确定 、 词 条 选择 和 单词 形 
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式 编码 等 步 又 (Levelt et al., 1999), 


Hickok (2012) 指 出 DIVA 模型 更 关注 动力 学 、 运 动 轨迹 和 


反馈 控制 ， 忽略 了 与 传统 心理 语言 学 视角 的 联系 。 最后, 模型 未 关注 言语 产生 中 对 韵律 的 控 


= 
uk 
ig 


、 音 强 、 音 长 和 节奏 传达 了 重要 的 语言 学 和 情感 信息 (Tourville & Guenther, 2011). 


目前 Guenther 教授 团队 开始 发 展 GODIVA(Gradient-order) 模 型 ， 未 来 研究 者 也 需要 在 更 大 
的 语言 单位 以 及 超 音 段 水 平 上 探索 言语 运动 的 控制 机 制 。 

B=, 从 影响 因素 来 看 , 个 体 差异 、 训 练 经 历 和 任务 情境 等 ,目前 都 被 认为 与 前 馈 和 反 
馈 控 制 的 整合 加 工 密切 相关 ,然而 在 该 领域 也 有 少数 研究 发 现 不 统一 的 结果 。 此 外 ,对 于 这 


些 因素 是 如 何 影响 或 如 何 共同 影 ? 


向 言语 运动 控制 , 远 没 有 得 到 充分 了 解 。 未 来 研究 应 重点 考 


察 影响 前 饥 和 反馈 控制 整合 加 工 的 因素 以 及 相应 的 理论 依据 。 


BW, Mika RAKE, W 
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语 者 第 二 语言 运动 控制 的 研究 刚刚 起 步 ， 与 母语 差异 的 探 


索 吸 待 加 强 。 Simmonds 等 (2011) 提 出 虽然 母语 和 二 语 共 享 感知 -运动 脑 网 络 , 但 理论 上 来 说 ， 


母语 中 运动 指令 高 度 自动 化 ， 并 高 效 整合 来 自前 馈 运 动 、 听 觉 反 馈 和 体 觉 反馈 的 信息 ,而 二 


语 中 运动 指令 不 熟悉 , 而 且 听 觉 反 馈 经 常 与 内 部 表征 不 匹配 , 因而 可 能 需要 更 多 感觉 反馈 控 


制 的 参与 。 此 外 ， 晚 期 双语 者 普遍 存在 的 口音 问题 实质 上 反映 了 二 语 中 运动 -感觉 信息 的 整 


合 很 难 达到 母语 水 平 。 为 此 我 们 应 开展 实证 研究 揭示 二 语言 语 运动 控制 的 一 般 性 规律 , 为 促 


第 五 ， 探 索 言 语 运动 控制 的 


自 声 学 研究 ， 近 年 来 研究 者 答 试 采用 脑 成 像 技术 探讨 听觉 加 工 和 运动 修正 发 生 的 时 间 进 程 


进 第 二 语言 语音 教学 提供 理论 指导 。 


神经 机 制 。 对 言语 运动 系统 及 认 知 机 制 的 早期 探索 主要 3》 


及 其 神经 基础 。 但 出 声 命名 遇 到 最 大 的 质疑 是 发 声带 来 的 运动 相关 伪 迹 , 研究 者 认为 运动 伪 


迹 可 能 会 掩蔽 由 实验 操纵 带 来 的 神经 活动 变化 。 鉴于 此 , 部 分 研究 者 要 求 被 试 在 语言 产生 过 
程 中 尽量 减少 发 音 器 官 的 移动 (Chen etal., 2012b), 或 采用 严格 的 数据 剔除 标准 (Scheerer et al., 


2013a, 2013b)， 抑 或 采用 不 出 声 命 名 任务 (Tian & Poeppel, 2015)。 下 一 步 研究 应 着 重 思 考 如 


何 结合 行为 、ERP、MEG 和 fMRI 等 技术 以 及 多 种 实验 范式 , 深入 有 效 地 考察 前 馈 和 反馈 控 
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制 整合 加 工 的 认 知 神经 机 制 。 
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The integration mechanisms of feedforward and feedback control in speech motor system 

CAI Xiao; ZHANG Qingfang 
(Department of Psychology, Renmin University of China, Beijing 100872, China) 
Abstract: The final stage in the process of spoken production is articulation, which involves the 
integration of feedforward and feedback control in speech motor system. Specifically, feedforward 
control (top-down mechanism) refers to speakers’ ability to retrieve and execute the motor 
commands responsible for producing target speech sounds, while feedback control (bottom-up 
mechanism) refers to speakers’ ability to adjust speech movements based on the sensory feedback 
generated by articulation. Sensory goals and sensory predictions are important hubs linking 
feedforward and feedback control systems. Based on the neural computational model DIVA 
(directions into velocities of articulators), the cognitive and neural mechanisms of the integration 
between feedforward and feedback control are illustrated in the stage of speech acquisition and 
speech production. On the basis of previous studies, how speakers utilize auditory feedback to 
control online speech and update feedforward motor representations, and the cognitive significance 
of the PI-N1-P2 components in the ERP studies are especially discussed. Furthermore, various 
factors that influence feedforward and feedback control are summarized, including individual 
variabilities, training experience and task demands. Additionally, some suggestions are proposed 
for future investigation. 
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